튜링 테스트
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
튜링 테스트는 앨런 튜링이 제안한, 기계가 인간처럼 생각할 수 있는지 평가하는 시험이다. 이 테스트는 "모방 게임"을 통해 이루어지며, 질문자가 인간과 기계를 구별하는 방식으로 진행된다. 튜링 테스트는 철학적 배경을 가지고 있으며, 기계 지능과 의식의 문제와 연결되어 있다. 튜링 테스트는 단순성과 광범위한 주제를 다룰 수 있다는 장점이 있지만, 인간의 지능과 지능의 일반적인 비교, 의식의 시뮬레이션 문제, 질문자의 주관성 등 여러 약점을 가지고 있다. 튜링 테스트는 CAPTCHA, 전자 건강 기록, 최소 지능형 신호 테스트 등 다른 분야에도 활용되며, 튜링은 기계가 테스트를 통과할 것이라고 예측했다. 한국에서는 챗봇 유진 구스트만이 튜링 테스트를 통과한 것으로 알려지면서 관심을 받았으며, AI 기술 발전과 함께 윤리적, 사회적 문제에 대한 논의도 필요하다.
더 읽어볼만한 페이지
- 튜링 테스트 - CAPTCHA
CAPTCHA는 컴퓨터와 사람을 구별하기 위해 자동으로 생성되는 튜링 테스트의 일종으로, 봇 차단을 위해 텍스트, 이미지, 오디오 등을 제시하여 사용자가 판독하고 입력하도록 요구하며 스팸 방지, 계정 해킹 방지 등에 활용되지만 접근성, 난이도, CAPTCHA 공장 등의 한계로 대안이 연구되고 있다. - 튜링 테스트 - ReCAPTCHA
reCAPTCHA는 웹사이트에서 봇을 차단하고 사용자가 인간임을 인증하는 CAPTCHA 시스템으로, 초기에는 스캔된 텍스트 디지털화 과정에서 OCR로 인식하기 어려운 단어 식별에 활용되었으나, 이미지 식별, 행동 분석 등 다양한 인증 방식을 도입하며 발전해왔으며, 접근성 및 개인 정보 보호 문제와 사용자들의 무임금 노동 제공과 관련된 비판도 존재한다. - 앨런 튜링 - 이미테이션 게임
제2차 세계 대전 당시 독일군의 에니그마 암호 해독에 결정적인 역할을 한 수학자 앨런 튜링의 실화를 바탕으로, 암호 해독팀이 암호 해독 기계 "봄베"를 개발하는 과정과 전후 동성애 사실이 밝혀져 박해받는 그의 비극적인 삶을 그린 2014년 영화이다. - 앨런 튜링 - 튜링상
튜링상은 컴퓨터 과학 분야에 큰 공헌을 한 인물에게 수여되는 상으로, 알고리즘, 프로그래밍 언어, 인공지능 등 다양한 분야에서 혁신적인 업적을 이룬 연구자들에게 수여되며 "컴퓨터 과학 분야의 노벨상"으로 불린다.
튜링 테스트 | |
---|---|
튜링 테스트 | |
![]() | |
유형 | 모방 게임(Imitation game) |
개발자 | 앨런 튜링 |
최초 제안 | 1950년 |
목표 | 기계의 지능을 평가하는 시험 |
평가 방법 | 인간 심판자(인터로게이터)가 기계와 인간 참가자와의 대화를 구별하는 능력 심판자가 구별에 실패하면 기계는 시험 통과 |
주요 논의 | 기계 지능의 정의 인공지능의 철학적 의미 자연어 처리의 발전 기계의 의식 및 인격 가능성 |
핵심 질문 | "기계가 생각할 수 있는가?" (Can machines think?) |
관련 분야 | 인공지능 철학 인지과학 컴퓨터 과학 |
역사 및 배경 | |
제안 배경 | 튜링은 '기계가 생각할 수 있는가'라는 질문에 대한 실증적 방법 모색 전통적인 철학적 논쟁에서 벗어나 객관적인 판단 기준 마련 목표 |
'모방 게임' 제안 | 원본 모방 게임에서 남녀 구별을 기계-인간 구별로 변경 심판자가 텍스트 기반 대화로 상대방이 기계인지 인간인지 식별 |
튜링의 예상 | 2000년까지 30%의 심판자가 5분간의 대화에서 기계를 인간으로 오인할 것이라고 예측 |
주요 내용 | |
작동 방식 | 심판자, 인간 참가자, 기계 참가자 3자 구조 심판자는 텍스트를 통해 대화 심판자는 누가 인간이고 누가 기계인지 모름 심판자가 기계를 인간으로 식별하면 기계는 시험을 통과 |
주요 특징 | 지능 평가를 위한 행동주의적 접근 대화 능력에 기반한 지능 평가 내부 작동 방식에 대한 관심보다는 결과에 집중 |
평가 기준 | 기계가 인간과 유사한 대화 능력을 보이는지 평가 심판자를 속일 수 있는 능력이 핵심 |
비판 및 논란 | |
주요 비판 | 대화 능력만이 지능의 전부가 아님 기계가 '진정으로' 이해하는지 여부는 미확인 속임수를 통한 통과 가능성 인간 심판자의 편견 문제 중국어 방 사고 실험과 같은 철학적 비판 |
현재 상황 | 기계가 튜링 테스트를 부분적으로 통과했다는 주장 제기 챗봇 기술 발달에 따라 재평가 필요성 대두 여전히 인공지능 연구의 중요한 평가 기준 중 하나 |
논란 | 지능 평가 방법의 적절성 논쟁 지속 철학적 의미에 대한 다양한 해석 |
영향 및 관련 주제 | |
인공지능 연구 | 자연어 처리, 기계 학습 등 다양한 분야 연구에 기여 인공지능의 목표 설정 및 평가에 영향 |
관련 연구 | 튜링 테스트를 변형한 다양한 시험 개발 로브너 상 (Loebner Prize): 매년 열리는 튜링 테스트 대회 |
대중 문화 | 영화, 소설 등 다양한 작품에서 튜링 테스트 관련 소재 활용 인공지능에 대한 대중적 관심 증가에 기여 |
참고 자료 | |
원문 논문 | Computing Machinery and Intelligence - 앨런 튜링 1950 |
관련 링크 | 앨런 튜링 인터넷 스크랩북: 튜링 테스트 튜링 테스트 - 스탠포드 철학 백과사전 튜링 테스트 (Stanford Encyclopedia of Philosophy) |
2. 역사
앨런 튜링은 1940년대부터 '기계 지능'을 연구했으며, 1950년 논문 "계산 기계와 지능"에서 "모방 게임"을 제안했다.[145][146][147][148][149][150] 튜링은 이 게임을 "기계가 생각할 수 있는가?"라는 질문에 대한 실용적인 대안으로 제시했다.[151][152][153] 1952년 BBC 라디오 방송에서 튜링은 배심원이 컴퓨터에게 질문하고, 컴퓨터가 인간이라고 믿게 만드는 역할을 하는 테스트 버전을 언급했다.[156]
1966년 조셉 와이젠바움은 ELIZA라는 프로그램을 만들었다. ELIZA는 사용자가 입력한 문장에서 키워드를 찾아, 규칙에 따라 문장을 변환하여 결과 문장을 반환하는 방식으로 작동했다. 키워드가 발견되지 않으면, ELIZA는 일반적인 답변을 하거나 이전에 했던 말을 반복했다.[158] 와이젠바움은 ELIZA가 로저스적 심리치료사처럼 행동하도록 만들어, "실제 세계에 대해 거의 아무것도 모르는 척할 수 있게" 했다.[159] 이 기법으로 인해 ELIZA는 일부 사람들을 속여 실제 사람과 대화하고 있다고 믿게 만들었다.[160]
1972년 케네스 콜비는 PARRY를 만들었는데, 이는 "태도를 가진 ELIZA"로 묘사된다.[163] PARRY는 편집증적 정신분열병 환자의 행동을 모방하기 위해 와이젠바움이 사용한 것과 유사하지만 더 발전된 접근 방식을 사용했다. 1970년대 초, PARRY를 사용한 튜링 테스트 변형이 시행되었다. 정신과 의사 그룹은 텔레프린터를 통해 실제 환자와 PARRY를 실행하는 컴퓨터를 분석했고, 다른 그룹은 대화 기록을 받았다. 두 그룹 모두 어떤 "환자"가 인간이고 어떤 것이 컴퓨터 프로그램인지 식별하도록 요청받았는데, 정신과 의사들은 48%의 확률로만 정확하게 식별하여 무작위 추측과 같은 결과를 보였다.[164][165]
뢰브너 상은 1991년 11월 첫 대회 이후 매년 튜링 테스트를 실시하는 장을 제공한다.[168] 휴 뢰브너(Hugh Loebner)가 후원하는 이 상은 2003년 대회까지 미국 매사추세츠 주 케임브리지 대학 행동 연구소에서 주관했다. 뢰브너는 이 대회를 만든 이유 중 하나가 인공지능 연구 수준을 향상시키기 위한 것이며, 40년 동안 논의만 해왔던 튜링 테스트를 실제로 구현하려는 시도가 없었기 때문이라고 설명했다.[169]
1991년 첫 뢰브너 상 대회는 대중 매체[170]와 학계[170]에서 튜링 테스트의 실현 가능성과 가치에 대한 논의를 새롭게 불러일으켰다. 첫 대회는 지능이 없는 프로그램이 순진한 심사관들을 속여 잘못된 판단을 내리게 하면서 우승했는데, 이는 튜링 테스트의 여러 단점을 부각했다. 우승자는 "인간의 타이핑 실수를 모방"하여 심사관을 속일 수 있었다.[171] 단순한 심사관들은 쉽게 속았고,[172] 일부 인공지능 연구자들은 이 테스트가 더 유익한 연구에서 주의를 흐트러뜨린다고 생각했다.[172]
은상(텍스트만)과 금상(오디오 및 비주얼)은 아직 수상자가 없다. 그러나 매년 심사위원들의 의견에 따라 그 해 참가작 중 가장 "인간적인" 대화 행동을 보이는 컴퓨터 시스템에 동상을 수여한다. 인공 언어 인터넷 컴퓨터 개체(Artificial Linguistic Internet Computer Entity, A.L.I.C.E.)는 2000년, 2001년, 2004년에 동상을 수상했다. 학습형 AI인 자버와키(Jabberwacky)는 2005년, 2006년에 우승했다.
초기 뢰브너 상은 대화를 제한했다. 각 참가자와 숨겨진 인간은 하나의 주제에 대해 대화했고,[173] 심사관은 개체 상호 작용당 질문 한 줄로 제한되었다. 1995년부터는 대화 제한 규칙이 없어졌다. 심사관과 개체 간의 상호 작용 시간은 뢰브너 상에서 다양했다. 서리 대학교에서 열린 2003년에는 각 심사관에게 5분이 허용되었고, 2004년부터 2007년까지는 20분 이상이 허용되었다.
2. 1. 철학적 배경
"기계가 생각할 수 있는가?"라는 질문은 마음의 이원론과 유물론 논쟁과 깊이 연관되어 있다. 르네 데카르트는 1637년 방법서설에서 기계가 인간처럼 언어를 사용하여 적절하게 반응하는 것은 불가능하다고 주장했다.[142] 반면, 드니 디드로는 1746년 그의 저서 팡세 필로소피크에서 "만약 모든 것에 대답할 수 있는 앵무새를 발견한다면, 주저 없이 그것을 지적인 존재라고 주장할 것이다."라고 언급했는데, 이는 당시 유물론자들의 일반적인 주장이었다.[143]1936년, 철학자 알프레드 아예르는 타인의 마음이라는 철학적 질문, 즉 "우리는 어떻게 다른 사람들도 우리가 하는 것과 같은 의식적인 경험을 가지고 있다는 것을 알 수 있을까?"에 대해 고민했다. 그는 저서 ''언어, 진실, 그리고 논리''에서 의식 있는 존재와 무의식적인 기계를 구별하는 기준으로 "경험적인 테스트들 중 하나를 충족시키지 못한다"는 것을 제안했다.[144] 이는 튜링 테스트와 유사하지만, 지능보다는 의식에 초점을 맞추고 있으며, 아예르가 튜링 테스트에 대해 알고 있었는지는 확실하지 않다.
2. 2. 앨런 튜링
앨런 튜링은 1940년대부터 '기계 지능'을 연구해 왔으며, 1950년 논문 "계산 기계와 지능"에서 "모방 게임"을 제안했다.[145][146][147][148][149][150] 이 게임에서 질문자는 인간과 기계를 구별하는 테스트를 하며, 튜링은 이를 "기계가 생각할 수 있는가?"라는 질문에 대한 실용적인 대안으로 제시했다.[151][152][153] 1952년 BBC 라디오 방송에서 튜링은 배심원이 컴퓨터에게 질문하고, 컴퓨터가 인간이라고 믿게 만드는 역할을 하는 테스트 버전을 언급했다.[156]2. 3. 엘리자와 패리
1966년 조셉 와이젠바움은 ELIZA라는 프로그램을 만들었다. 이 프로그램은 사용자가 입력한 문장에서 키워드를 찾는 방식으로 작동했다. 키워드가 발견되면, 사용자의 문장을 변환하는 규칙이 적용되어 결과 문장이 반환되었다. 키워드가 발견되지 않으면, ELIZA는 일반적인 답변을 하거나 이전에 했던 말을 반복했다.[158] 또한 와이젠바움은 ELIZA가 로저스적 심리치료사처럼 행동하도록 만들어, "실제 세계에 대해 거의 아무것도 모르는 척할 수 있게" 했다.[159] 이러한 기법을 통해 와이젠바움의 프로그램은 일부 사람들을 속여 실제 사람과 대화하고 있다고 믿게 만들었고, 어떤 사람들은 "ELIZA가 인간이 아니라는 것을 납득시키기가 매우 어려웠다"라고 말했다.[160]케네스 콜비는 1972년에 PARRY를 만들었는데, "태도를 가진 ELIZA"로 묘사된다.[163] 이 프로그램은 와이젠바움이 사용한 것과 유사한 (더 발전된) 접근 방식을 사용하여 편집증적 정신분열병 환자의 행동을 모방하려고 시도했다. 이 연구의 타당성을 검증하기 위해, 1970년대 초에 PARRY를 사용하여 튜링 테스트의 변형이 시행되었다. 경험이 많은 정신과 의사 그룹이 텔레프린터를 통해 실제 환자와 PARRY를 실행하는 컴퓨터를 결합하여 분석했다. 또 다른 33명의 정신과 의사 그룹에게는 대화 내용의 기록이 제시되었다. 그런 다음 두 그룹 모두 어떤 "환자"가 인간이고 어떤 것이 컴퓨터 프로그램인지 식별하라는 요청을 받았다.[164] 정신과 의사들은 48%의 확률로만 정확하게 식별할 수 있었는데, 이는 무작위 추측과 일치하는 수치이다.[165]
2. 4. 뢰브너 상
뢰브너 상은 1991년 11월 첫 대회가 열린 이후 매년 튜링 테스트를 실제로 실시하는 장을 제공한다.[168] 휴 뢰브너(Hugh Loebner)가 후원하는 이 상은 2003년 대회까지 미국 매사추세츠 주의 케임브리지 대학 행동 연구소에서 주관했다. 뢰브너의 설명에 따르면, 이 대회가 만들어진 이유 중 하나는 인공지능 연구의 수준을 향상시키기 위한 것인데, 적어도 부분적으로는 40년 동안 논의만 해왔던 튜링 테스트를 실제로 구현하려는 시도가 없었기 때문이다.[169]1991년 첫 뢰브너 상 대회는 대중 매체[170]와 학계[170]에서 튜링 테스트의 실현 가능성과 그 추구의 가치에 대한 논의를 새롭게 불러일으켰다. 첫 대회는 식별 가능한 지능이 없는 무의식적인 프로그램이 순진한 심사관들을 속여 잘못된 판단을 내리도록 만들면서 우승했다. 이는 튜링 테스트의 여러 단점을 부각했다. 우승자는 적어도 부분적으로는 "인간의 타이핑 실수를 모방"할 수 있었기 때문에 이겼다.[171] 단순한 심사관들은 쉽게 속았고,[172] 일부 인공지능 연구자들은 이 테스트가 더 유익한 연구에서 주의를 흐트러뜨리는 것에 불과하다고 생각하게 되었다.[172]
은상(텍스트만)과 금상(오디오 및 비주얼)은 아직 수상자가 없다. 그러나 매년 심사위원들의 의견에 따라 그 해 참가작 중 가장 "인간적인" 대화 행동을 보이는 컴퓨터 시스템에 동상을 수여한다. 인공 언어 인터넷 컴퓨터 개체(Artificial Linguistic Internet Computer Entity, A.L.I.C.E.)는 2000년, 2001년, 2004년에 동상을 수상했다. 학습형 AI인 자버와키(Jabberwacky)는 2005년과 2006년에 우승했다.
뢰브너 상은 대화 지능을 테스트하며, 수상자는 일반적으로 챗봇 프로그램 또는 인공 대화 개체 (ACE)이다. 초기 뢰브너 상 규칙은 대화를 제한했다. 각 참가자와 숨겨진 인간은 하나의 주제에 대해 대화했고,[173] 따라서 심사관은 개체 상호 작용당 질문 한 줄로 제한되었다. 1995년 뢰브너 상부터는 제한된 대화 규칙이 없어졌다. 심사관과 개체 간의 상호 작용 시간은 뢰브너 상에서 다양했다. 서리 대학교에서 열린 2003년 뢰브너 상에서는 각 심사관이 기계 또는 숨겨진 인간과 상호 작용하는 데 5분이 허용되었다. 2004년부터 2007년까지 뢰브너 상에서 허용되는 상호 작용 시간은 20분 이상이었다.
3. 형태
앨런 튜링은 1950년 논문 "계산 기계와 지능"에서 "기계가 생각할 수 있는가?"라는 질문 대신 "기계가 우리가(생각하는 실체로서) 할 수 있는 것을 할 수 있는가?"로 질문을 바꿀 것을 제안했다.[152] 튜링은 이 새로운 질문의 장점이 '인간의 신체적 능력과 지적 능력 사이에서 상당히 뚜렷한 선을 긋는다'는 것이라고 주장한다.[153]
튜링은 이러한 접근법을 보여주기 위해 "모방 게임"을 변형한 테스트를 제안한다. 모방 게임은 남자와 여자가 각기 다른 방에 들어가고 손님들은 일련의 질문을 쓰고, 타이핑해서 보낸 답을 읽음으로써 서로를 구분하려는 게임이다. 튜링은 "기계가 이 게임에서 A의 일부를 차지하면 어떻게 될까요?"라고 질문하며, 질문자는 남자와 여자가 경기를 할 때처럼 종종 잘못된 결정을 할지를 묻는다.[155]
이후 튜링은 판사가 컴퓨터와 남자하고만 대화하는 "동등한" 대안을 제시하고,[156] 1952년 BBC 라디오 방송에서 배심원이 컴퓨터에 질문하고 컴퓨터는 배심원을 속여 사람이라고 믿게 만드는 세 번째 테스트를 논의했다.[156]
튜링의 논문은 발표 이후 수년간 제기된 인공지능에 대한 주요 주장을 포함하여 9가지 추정적 반대 의견을 고려했다.[157]
사울 트라이거는 튜링 테스트의 기초적인 형태는 최소 3가지라고 주장하는데,[174] 이 세 가지 버전은 동등하지 않으며, 그들의 강점과 약점은 구별된다.
3. 1. 모방 게임
앨런 튜링은 1950년 논문 "계산 기계와 지능"에서 모방 게임을 제안했다. 이 게임에는 세 명의 참가자가 등장한다. A 참가자는 남자, B 참가자는 여자, C 참가자(질문자)는 성별에 관계없이 참여한다. C는 A나 B를 볼 수 없고, 글로 쓴 질문과 답변을 통해서만 의사소통할 수 있다. C는 A와 B에게 질문을 던져 누가 남성이고 누가 여성인지 알아내려 한다. A의 역할은 질문자를 속여 오답을 택하게 하는 것이고, B는 질문자가 정답을 고르도록 돕는다.[177]튜링은 여기서 기계가 A의 역할을 맡는다면 어떤 결과가 나올지 묻는다. 질문자는 남자와 여자가 게임을 할 때처럼 자주 틀린 답을 고를까? 튜링은 이러한 질문이 원래의 "기계가 생각할 수 있는가?"라는 질문을 대체한다고 제안한다.[178]
3. 2. 표준 해석
튜링 테스트의 표준 해석은 질문자가 대화 상대를 보지 않고, 컴퓨터와 사람 중 어느 쪽이 컴퓨터이고 어느 쪽이 사람인지 판별하는 것이다.[180] 이 해석에서는 질문자가 어떤 응답자가 사람이고 어떤 응답자가 기계인지 구별할 수 없다.[180] 일반적으로 이러한 제한은 합리적인 것으로 간주된다.[180]앨런 튜링의 1950년 논문 "계산 기계와 지능"에서는 원래의 모방 게임 테스트와, 인간 심사관이 인간과 기계와 대화하는 표준 튜링 테스트 두 가지를 제시한다.[122] 튜링은 "기계는 생각할 수 있는가?"라는 질문 대신 "기계는 우리가 (사고하는 존재로서) 할 수 있는 것을 할 수 있는가?"로 대체할 것을 제안했다.[97]
이러한 해석이 튜링의 의도와 일치하는지에 대한 논쟁이 있다.[122], [124], [125] 스터렛은 튜링의 1950년 논문에 있는 두 가지 테스트가 튜링 자신의 발언과는 반대로, 동등하지 않다고 주장한다.[127]
3. 3. 모방 게임 vs 표준 튜링 테스트
앨런 튜링은 1950년 논문 "계산 기계와 지능"에서 모방 게임이라는 파티 게임을 변형한 튜링 테스트를 제안했다. 원래 모방 게임은 남자와 여자가 다른 방에 들어가고, 질문자가 질문을 통해 성별을 맞히는 게임이다. 튜링은 이 게임을 기계 지능 평가에 맞게 수정했다.튜링이 제안한 초기 버전의 테스트는 크게 세 가지로 나뉜다.
- 원형 모방 게임 테스트 (Original Imitation Game Test): 컴퓨터가 모방 게임에서 사람(A) 역할을 맡고, 질문자는 컴퓨터와 다른 사람(B, 성별 무관) 중 누가 컴퓨터인지 판단한다. 컴퓨터가 사람처럼 행동하여 질문자를 속이는 "모방" 성공 여부가 평가 기준이다.
- 표준 튜링 테스트 (Standard Turing Test): 인간 심판이 컴퓨터와 인간의 대화를 통해 누가 컴퓨터이고 누가 인간인지 판단한다. 인간 행동 모방 능력 자체가 아니라, 인간과의 유사성을 기준으로 기계 지능을 판단한다.
일부 학자들은 튜링의 원래 의도에 따라 모방 게임 자체를 테스트로 간주해야 한다고 주장한다. 이들은 표준 튜링 테스트가 인간 수행 능력과의 유사성을 기준으로 하는 반면, 모방 게임은 지능과 관련된 자원을 필요로 한다고 강조한다.[181] 즉, 모방 게임 테스트는 단순한 "인간 대화 행동 시뮬레이션"이 아닌, 지능과 관련된 자원을 필요로 한다는 것이다.
사이긴(Saygin)은 원래 게임이 컴퓨터 참여를 숨기기 때문에 편향되지 않은 실험 설계를 제안하는 방법일 수 있다고 제안했다.[44] 모방 게임에는 표준 해석에서는 찾을 수 없는 "사회적 해킹"도 포함되어 있는데, 컴퓨터와 남성 인간 모두 자신이 아닌 척하는 연기를 해야 한다.[45]
3. 4. 평가관은 컴퓨터에 대해 알아야 하는가?
튜링은 그의 테스트에서 질문자가 참가자 중 한 명이 컴퓨터라는 것을 알고 있는지 여부를 명확하게 밝히지 않았다.[182] 그러나 튜링 테스트를 통과할 수 있는 기계가 있다면 이중 블라인드 제어가 필요하다고 가정하는 것이 안전할 것이다.원래의 모방 게임에서 튜링은 A선수를 기계로 교체할 것이며, C참가자는 그 사실을 알지 못한다고 하였다. 이것은 테스트의 실행과 결과에 큰 차이를 만든다. 1994-1999년 사이에 열린 AI콘테스트에서 로베너의 일대일상을 이용한 그라이스의 극대화 위반을 살펴본 실험 연구에서, 사이긴은 컴퓨터 관련 사실을 알고도 모르는 참가자들의 반응 사이에 상당한 차이가 있다는 것을 발견했다.[182]
어떤 실험실 검사에서도 중요한 부분은 대조군이 있어야 한다는 것이다. 튜링은 그의 테스트에서 심문관이 참가자 중 한 명이 컴퓨터라는 것을 알고 있는지에 대해 명확하게 밝히지 않았다. 그는 플레이어 A가 기계로 대체될 것이라고만 언급할 뿐, 플레이어 C가 이러한 대체 사실을 알게 될 것이라고는 말하지 않았다.[98] 콜비(Colby), F.D. 힐프(Hilf), S. 웨버(Weber), A.D. 크레이머(Kramer)가 PARRY를 테스트할 때, 그들은 심문 중에 심문관이 면접 대상 중 하나 이상이 컴퓨터라는 것을 알 필요가 없다고 가정했다.[129] 아예 사이긴(Ayse Saygin), 피터 스위르스키(Peter Swirski) 등이 강조했듯이,[44] 이것은 테스트의 구현과 결과에 큰 차이를 만든다. 1994년부터 1999년까지 로브너(Loebner)의 일대일(심문관-숨겨진 대화 상대) 인공지능 대회의 기록을 사용하여 그라이스의 극대화 위반을 살펴본 실험 연구에서 아예 사이긴은 컴퓨터의 참여 여부를 알고 있는 참가자와 모르는 참가자의 응답 사이에 상당한 차이를 발견했다.[44]
4. 강점
튜링 테스트는 기계가 생각할 수 있는지에 대한 질문에서 비롯되었으며, 이는 이원론과 유물론의 관점 차이에 뿌리를 두고 있다. 르네 데카르트는 방법서설에서 자동기계가 인간의 상호작용에 반응은 할 수 있지만, 인간처럼 다양한 방식으로 적절하게 응답할 수는 없다고 주장하며 튜링 테스트의 측면을 예고했다.[25] 드니 디드로는 철학적 사상에서 "모든 것에 대답할 수 있는 앵무새가 있다면, 주저 없이 그것을 지적인 존재라고 주장할 것이다."라고 언급하며 튜링 테스트의 기준을 공식화했다.
알프레드 아여는 언어, 진실, 그리고 논리에서 의식적인 인간과 무의식적인 기계를 구별하는 프로토콜을 제안했는데, 이는 튜링 테스트와 유사하다.[25] 조너선 스위프트의 걸리버 여행기에는 튜링 테스트의 기본 아이디어가 등장한다.[26][27] 걸리버는 브로브딩내그 왕에게 자신이 기계가 아님을 설득해야 했다.[28] 1940년대 공상과학 소설에서는 컴퓨터나 외계인이 지능적인지 판단하는 테스트가 이미 확립되어 있었고, 스탠리 G. 와인바움의 화성 오디세이는 그러한 테스트가 얼마나 미묘할 수 있는지 보여준다.[29] 피그말리온 신화, 피노키오의 모험, 모래사장(단편 소설) 등은 인간으로 가장하려는 기계 또는 자동 인형의 초기 사례이다.[30]
앨런 튜링은 1941년부터 기계 지능 개념을 연구했으며,[31] 1948년 보고서 "지능형 기계"에서 튜링 테스트의 전조를 제안했다.[32] 그는 체스 게임을 하는 종이 기계를 예로 들며, 실험을 통해 인간이 기계와 게임을 하는 상대를 구별하기 어려울 수 있다고 언급했다. 1950년 논문 계산 기계와 지능에서 튜링은 "기계는 생각할 수 있는가?"라는 질문 대신 "기계는 우리(사고하는 존재로서)가 할 수 있는 일을 할 수 있는가?"라는 새로운 질문을 제안했다.[6] 그는 모방 게임을 통해 이 질문에 답하고자 했다.
튜링 테스트의 초기 버전에는 세 가지가 있다.[122] 첫 번째는 "원형 모방 게임 테스트"로, 컴퓨터가 여성인 척하며 질문자를 속이는 역할[123]을 한다. 두 번째 버전은 컴퓨터와 인간 남성이 모두 질문자를 속이려고 경쟁[124]한다. 튜링은 1952년 BBC 라디오 방송에서 세 번째 버전을 제안했는데, 배심원이 컴퓨터에 질문하고 컴퓨터는 자신이 인간이라고 믿게 만드는 역할[34]을 한다.
튜링 테스트의 공식화에 대한 논쟁도 있다. 스테레트는 튜링의 논문에 두 가지 테스트("원형 모방 게임 테스트"와 "표준 튜링 테스트")가 있으며, 이 둘은 동등하지 않다고 주장한다.[122] 샤는 튜링이 모방 게임을 통해 인간-기계 질의응답을 검토하는 방법을 제공했다고 주장한다.[43] 일부에서는 모방 게임이 사회적 측면으로 가장 잘 이해된다고 주장한다. 튜링은 지능을 "감정적 개념"으로 언급하고, 지능적인 존재는 평균적인 심문관에게 지능적으로 "보이는" 존재라고 주장한다. 단지거는 사회기술적 해석을 제시하는데, 이에 따르면 튜링은 모방 게임을 지능 테스트가 아닌 기술적 열망으로 보았다. 사이긴은 원래 게임이 컴퓨터의 참여를 숨기기 때문에 덜 편향된 실험 설계를 제안하는 방법일 수 있다고 제안했다.[44] 모방 게임에는 "사회적 해킹"도 포함되어 있다.[45]
4. 1. 관리 용이성, 그리고 단순성
튜링 테스트는 심리학, 신경과학 등에서 아직 명확하게 정의되지 않은 '지능'과 '생각'을 측정하는 실용적인 방법을 제공한다. 튜링 테스트는 불완전하지만, 실제로 측정 가능한 무언가를 제공하며, 어려운 철학적 질문에 답하려는 실용적인 시도이다.[182]4. 2. 광범위한 주제
튜링 테스트의 형식은 질문자가 기계에 광범위한 지적인 과제를 부여할 수 있게 한다. 튜링은 "질문과 대답 방법은 우리가 포함시키고자 하는 인간 노력의 거의 모든 분야를 도입하기에 적합한 것 같다"라고 썼다.[183] 존 호겔랜드는 "단어를 이해하는 것만으로는 충분하지 않다, 주제를 이해해야 한다"라고 덧붙였다.[184]잘 설계된 튜링 테스트를 통과하려면 기계가 자연어를 사용하고, 추론을 하며, 지식과 학습을 사용할 수 있어야 한다. 이 테스트는 비디오 입력뿐만 아니라 물체를 통과할 수 있는 "탈출구"를 포함하도록 확장될 수 있다. 이로 인해 기계가 잘 설계된 비전과 로보틱스를 능숙하게 사용한다는 것을 입증할 수 있다. 이러한 것들은 모두 인공지능 연구가 해결하고자 하는 거의 모든 주요 문제들을 보여준다.
파이겐바움 테스트는 튜링 테스트에서 사용할 수 있는 다양한 주제를 활용하도록 설계되었다. 튜링의 질문-답변 게임은 제한된 형태로, 기계를 문학, 화학 등 특정 분야의 전문가의 능력과 비교한다. IBM의 왓슨 기계는 텔레비전 퀴즈 쇼 제퍼디에서 인간 지식에 대해 인간과 경쟁하여 흥행에 성공했다.
5. 약점
튜링 테스트는 기계의 지능을 평가하는 방법으로 제안되었지만, 여러 가지 약점과 비판에 직면해 왔다. 이러한 비판은 테스트의 설계, 평가 기준, 그리고 철학적 함의 등 다양한 측면에서 제기되었다.
튜링은 튜링 테스트가 지능의 척도로 사용될 수 있음을 명시적으로 언급하지 않았다. 그는 "생각"이라는 단어에 대한 명확하고 이해하기 쉬운 대안을 제시하고자 했으며, 이를 통해 "생각하는 기계"의 가능성에 대한 비판에 답하고 연구 방향을 제시하고자 했다.[6]
그럼에도 불구하고, 튜링 테스트는 기계의 "사고 능력" 또는 "지능"을 측정하는 척도로 제안되었으며, 철학자와 컴퓨터 과학자들로부터 비판을 받아왔다. 비판의 핵심은 평가자가 기계의 행동을 인간의 행동과 비교하여 기계가 "생각"하는지 여부를 판단할 수 있다는 가정에 있다. 이러한 가정의 모든 요소, 즉 평가자 판단의 신뢰성, 행동 비교의 가치, 그리고 기계를 인간과 비교하는 것의 가치에 대한 의문이 제기되었다. 이러한 점들을 고려하여 일부 AI 연구자들은 튜링 테스트가 자신들의 분야와 관련이 있는지 의문을 제기했다.
기계가 생각할 수 있는지에 대한 질문은 오랜 역사를 가지고 있으며, 마음에 대한 이원론적 관점과 유물론적 관점의 차이에 깊이 뿌리내리고 있다. 르네 데카르트는 1637년 저서 ''방법서설''에서 튜링 테스트의 측면을 예고했는데, 자동기계가 인간의 상호작용에 반응할 수 있지만, 인간처럼 적절하게 반응할 수는 없다고 주장했다. 드니 디드로는 1746년 저서 ''팡세 필로소피크''에서 "만약 모든 것에 대답할 수 있는 앵무새를 발견한다면, 나는 주저 없이 그것을 지적인 존재라고 주장할 것이다."라고 언급하며 튜링 테스트와 유사한 기준을 제시했다. 1936년, 철학자 알프레드 아여는 의식적인 인간과 무의식적인 기계를 구별하기 위한 프로토콜을 제안했는데, 이는 튜링 테스트와 매우 유사하다.
튜링 테스트의 기본적인 아이디어는 1726년 조너선 스위프트(Jonathan Swift)의 소설 『걸리버 여행기』(Gulliver's Travels)에 등장한다. 걸리버는 자신이 기계가 아니라는 것을 왕에게 확신시키기 위해 여러 질문에 합리적인 답을 제시한다. 1940년대까지 컴퓨터 또는 외계인이 지능적인지 인간이 판단하는 테스트는 공상과학 소설에서 확립된 관례였으며, 튜링이 이러한 사실을 알고 있었을 가능성이 높다. 스탠리 G. 와인바움(Stanley G. Weinbaum)의 "화성 오디세이"(A Martian Odyssey, 1934)는 이러한 테스트가 얼마나 미묘할 수 있는지 보여주는 예시이다. 인간으로 가장하려는 기계 또는 자동 인형의 초기 사례로는 피그말리온, 『피노키오의 모험』, "모래사장" 등이 있다.
존 설은 중국어 방 논증을 통해 튜링 테스트가 기계의 외부 행동만을 평가하며, 기계가 실제로 생각하는지, 의식이나 의도성을 가지고 있는지 여부를 판단할 수 없다고 주장했다.
튜링 테스트의 대안적 공식화 중 어떤 것이 튜링이 의도한 것인지에 대한 논쟁이 제기되었다. 스테레트는 그의 1950년 논문에서 두 가지 별개의 테스트를 추출할 수 있으며, 튜링의 말과는 달리 이 두 테스트는 동등하지 않다고 주장한다. 후마 샤에 따르면, 튜링 자신은 기계가 생각할 수 있는지에 관심이 있었고, 인간-기계 질의응답 세션을 통해 이를 검토하는 간단한 방법을 제공했다. 일부 저술가들은 모방 게임이 사회적 측면으로 가장 잘 이해된다고 주장한다. 사이긴은 원래 게임이 컴퓨터의 참여를 숨기기 때문에 덜 편향된 실험 설계를 제안하는 방법일 수 있다고 제안했다.
5. 1. 인간의 지능 vs 지능의 일반적인 비교
튜링 테스트는 컴퓨터가 인간처럼 행동하는지를 평가하지만, 이것이 곧 지능을 측정하는 완벽한 방법은 아니다. 다음과 같은 두 가지 주요 문제점이 지적된다.- 어떤 인간의 행동은 비지능적이다: 튜링 테스트는 기계가 모든 ''인간''의 행동을 따라 할 것을 요구한다. 여기에는 모욕에 대한 반응, 거짓말, 오타 등 지능과 무관한 행동도 포함된다. 이러한 비지능적인 행동을 모방하지 못하면 기계는 테스트를 통과하지 못한다.[37] 튜링은 프로그램이 더 나은 "게이머"가 되기 위해 출력에 오류를 추가해야 한다고 제안하기도 했다.[183]
- 어떤 지능적인 행동은 비인간적이다: 튜링 테스트는 어려운 문제 해결이나 독창적인 통찰력 발휘와 같은 고도의 지능적인 행동은 평가하지 않는다. 오히려 기계가 인간보다 ''더'' 똑똑하다면, 의도적으로 지능이 낮은 척해야 테스트를 통과할 수 있다. 인간이 풀기 어려운 계산 문제를 기계가 해결하면, 평가자는 기계임을 알아차리고 테스트에 실패하게 된다.[185]
이러한 한계 때문에, 인간의 능력을 넘어서는 지능을 측정하거나 평가하는 데 튜링 테스트는 부적합하며, 다른 대안적인 테스트 방법들이 제안되기도 한다.[185]
5. 2. 의식 (심리철학) vs 의식의 시뮬레이션
존 설은 중국어 방 논증을 통해 튜링 테스트가 기계의 외부 행동만을 평가하며, 기계가 실제로 생각하는지, 의식이나 의도성을 가지고 있는지 여부를 판단할 수 없다고 주장했다. 설은 소프트웨어(예: ELIZA)가 이해하지 못하는 기호를 조작하는 것만으로도 튜링 테스트를 통과할 수 있다고 지적했다. 이해 없이는 사람과 같은 의미에서 "사고"한다고 묘사할 수 없다는 것이다.[110]5. 3. 나이베의 질문자들과 인간적인 오류
튜링 테스트의 결과는 질문자의 태도, 기술, 순진함에 따라 크게 달라질 수 있다. 튜링은 평가관에게 필요한 정확한 기술이나 지식을 명시하지 않았지만, "평균적인 평가관"이라는 용어를 사용했으며, 이들은 5분간의 질문 후에 정확한 판단을 할 확률이 70%를 넘지 않을 것이라고 언급했다.[187]ELIZA와 같은 챗봇 프로그램들은 사람들을 속여 자신이 인간과 소통하고 있다고 믿게 만드는 경우가 종종 있었다.[158] 이러한 경우, "질문자"들은 컴퓨터와 상호작용하고 있다는 사실조차 인지하지 못하는 경우도 있었다. 이는 기계가 인간처럼 보이기 위해 특별한 지능을 가질 필요가 없으며, 인간 행동과 외형적으로 유사하기만 하면 된다는 것을 보여준다.
초기 뢰브너 상 대회에서는 기계에 쉽게 속는 "세련되지 않은" 질문자들이 사용되었다.[38] 2004년부터 뢰브너 상 주최자들은 질문자들 사이에 철학자, 컴퓨터 과학자, 언론인들을 배치했지만, 이들 전문가 중 일부도 기계에 속은 사례가 있다.[188]
마이클 셔머는 인간이 기회가 있을 때마다 인간이 아닌 물체를 인간으로 간주하는 경향, 즉 의인화 경향을 지적한다. 사람들은 차와 이야기하고, 자연의 힘에 욕구와 의도를 부여하며, 태양을 지성을 가진 존재로 숭배하기도 한다. 만약 튜링 테스트가 종교적인 대상에 적용된다면, 무생물인 상, 바위, 장소 등이 역사적으로 튜링 테스트를 통과해 왔다는 주장도 있다. 이러한 인간의 의인화 경향은 질문자들이 의인화를 피하도록 특별히 훈련받지 않는 한, 튜링 테스트의 기준을 낮추는 요인이 될 수 있다.
5. 4. 인간의 잘못된 식별
튜링 테스트의 흥미로운 특징 중 하나는 연합 효과의 빈도인데, 이는 인간이 질문자에 의해 기계로 오인되는 경우를 말한다. 질문자들이 인간의 반응으로 기대하는 것이 반드시 인간에게 전형적인 것은 아니라는 점이 제기되어 왔다. 결과적으로, 일부 개인은 기계로 분류될 수 있다. 그러므로 이것은 경쟁하는 기계에 유리하게 작용할 수 있다. 인간은 "자신답게 행동하라"는 지시를 받지만, 때때로 그들의 대답은 심문자가 기계가 말할 것으로 예상하는 것과 더 유사하다.[189] 이것은 인간이 "인간답게" 행동하도록 동기를 부여하는 방법에 대한 의문을 제기한다.5. 5. 침묵
기계가 대화 중에 침묵을 지키면, 심문관은 추측으로만 기계를 정확하게 식별할 수 있다.[57] 테스트의 일부로 병렬적/숨겨진 인간을 고려하더라도, 인간이 종종 기계로 잘못 식별될 수 있기 때문에 상황이 나아지지 않을 수 있다.[58]5. 6. 비효율과 비관리: 튜링 테스트와 AI 연구
주류 AI 연구자들은 튜링 테스트 통과 시도가 더 생산적인 연구에서 벗어나는 것이라고 주장한다.[190] 튜링 테스트는 실제로 학문적이거나 상업적인 노력의 초점이 아니다. 스튜어트 러셀과 피터 노비히는 AI 연구원들이 튜링 테스트 통과에 거의 관심을 기울이지 않았다고 썼다.[191] 여기에는 몇 가지 이유가 있다.첫째, 프로그램을 테스트하는 더 쉬운 방법들이 있다. 현재 인공 지능 관련 분야에 대한 대부분의 연구는 자동화된 스케줄링, 물체 인식 또는 물류와 같은 일반적이고 구체적인 목표를 목표로 하고 있다. AI 연구원들은 문제를 해결하는 프로그램의 지능을 테스트하기 위해 직접 과제를 내준다. 러셀과 노르비그는 비행의 역사와 유사한 점을 제안한다. 비행기는 새와 비교하는 것이 아니라 얼마나 잘 나는지에 의해 시험된다. 그들은 "항공 공학 교과서는 그들의 분야의 목표를 비둘기처럼 날아서 다른 비둘기들을 속일 수 있는 기계를 만드는 것으로 정의하지 않는다"고 썼다.[191]
둘째, 인간과 똑같은 시뮬레이션을 만드는 것은 AI 연구의 기본적인 목표를 달성하기 위해 해결될 필요가 없는 그 자체로 어려운 문제이다. 믿을 수 있는 인간 캐릭터는 예술, 게임, 또는 정교한 사용자 인터페이스 작품에서 흥미로울 수 있지만, 지능을 이용하여 문제를 해결하는 기계를 만드는 과학의 일부는 아니다.
튜링은 인공지능의 철학을 논의하는 데 도움이 되는 명확하고 이해하기 쉬운 예를 제공하고자 했다. 존 매카시는 AI 철학이 과학 철학과 달리 AI 연구에 더 이상 영향을 미치지 않을 것으로 보고 있다.[192]
5. 7. 인지 과학
인지과학자 로버트 M. 프렌치(1990)는 평가관이 인간 인지과학에서 연구된 바와 같이 인간 인지의 저수준(무의식적) 과정을 드러내는 질문을 함으로써 인간과 비인간 대화 상대를 구별할 수 있다고 주장한다.[66] 이러한 질문들은 사고의 인간적 구현에 대한 정확한 세부 사항을 드러내며, 컴퓨터가 인간처럼 세상을 경험하지 않는 한 컴퓨터를 폭로할 수 있다.6. 다른 용례
튜링 테스트는 현실에서 다양한 방식으로 활용되고 있다.
튜링 테스트의 기본 아이디어는 1726년 조너선 스위프트의 소설 『걸리버 여행기』에 등장한다.[26][27] 작중에서 걸리버가 브로브딩내그의 왕 앞에 끌려갔을 때, 왕은 걸리버의 말을 듣고도 그가 "일련의 말들을 배운 것"이 아닌지 의심했지만, 걸리버가 여러 질문에 합리적으로 답하자 그가 기계가 아님을 확신했다.[28]
1936년, 철학자 알프레드 아여는 의식적인 인간과 무의식적인 기계를 구별하는 프로토콜을 제안했는데, 이는 튜링 테스트와 유사하다. 다만, 아여의 철학 고전이 튜링에게 익숙했는지는 확실하지 않다.[25]
1746년 드니 디드로는 저서 ''팡세 필로소피크''에서 "만약 모든 것에 대답할 수 있는 앵무새를 발견한다면, 나는 주저 없이 그것을 지적인 존재라고 주장할 것이다."라고 언급하며 튜링 테스트 기준을 공식화했다.[30]
르네 데카르트는 1637년 저서 ''방법서설''에서 자동기계(오토마톤)가 인간의 상호작용에 반응할 수는 있지만, 인간처럼 적절하게 반응할 수는 없다고 주장하며 튜링 테스트의 측면을 예고했다.
6. 1. 역(逆)튜링 테스트, 그리고 CAPTCHA
CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)는 기계가 인간과 기계를 구별하는 역(逆)튜링 테스트의 한 형태이다.[193] 웹사이트에서 특정 작업을 수행하기 전에 사용자에게 왜곡된 그래픽 이미지의 영숫자를 입력하도록 요청하는데, 이는 자동화된 시스템이 사이트를 남용하는 것을 방지하기 위함이다.[7][40] 왜곡된 이미지를 정확하게 읽고 재현할 수 있는 정교한 소프트웨어가 (일반 사용자에게) 존재하지 않기 때문에, 이를 수행할 수 있는 시스템은 사람일 가능성이 높다는 것이 CAPTCHA의 원리이다.CAPTCHA 생성 엔진의 패턴을 분석하여 CAPTCHA를 어느 정도 정확하게 해독할 수 있는 소프트웨어가 CAPTCHA 생성 직후 개발되기 시작했다.[195] 2013년, 빅카리어스의 연구원들은 구글, 야후, 페이팔의 CAPTCHA 문제를 최대 90%까지 해결할 수 있는 시스템을 개발했다고 발표했다.[196] 2014년에는 구글 엔지니어들이 99.8%의 정확도로 CAPTCHA 문제를 해결할 수 있는 시스템을 시연했다.[197] 2015년, 구글의 클릭 사기 담당자였던 슈먼 고세마줌더는 사이버 범죄 사이트에서 CAPTCHA를 해결해 주는 서비스를 제공하여 다양한 형태의 사기를 가능하게 한다고 밝혔다.[198]
6. 2. 전자 건강 기록
''ACM 커뮤니케이션즈''에 발표된 한 편지[199]는 합성 환자 집단을 생성하는 개념을 설명하고, 합성 환자와 실제 환자 간의 차이를 평가하기 위한 튜링 테스트의 변형을 제안한다. 이 편지에는 "전자 건강 기록(EHR) 환경에서, 인간 의사는 합성적으로 생성된 환자와 실제 인간 환자를 쉽게 구별할 수 있지만, 기계가 스스로 그러한 판단을 내릴 수 있는 지능을 갖도록 할 수 있을까?"라고 적혀 있다. 또한, "합성 환자 정보가 공중 보건 문제가 되기 전에, 합법적인 EHR 시장은 튜링 테스트와 같은 기법을 적용하여 데이터 신뢰성과 진단 가치를 높이는 데 도움이 될 수 있다. 따라서 모든 새로운 기법은 환자의 이질성을 고려해야 하며, 앨런 8학년 과학 시험이 채점할 수 있는 것보다 더 복잡할 가능성이 높다."라고 언급한다.6. 3. 최소 지능형 신호 테스트
Minimum intelligent signal test영어는 크리스 매킨스트리가 제안한 튜링 테스트의 변형으로, 참/거짓 또는 예/아니오와 같은 이진 응답만 허용된다.[200] 이 테스트는 사고 능력에만 집중할 수 있도록 설계되었다. 이는 의인화 편향과 같은 텍스트 채팅 문제를 제거하며, 비지능적인 인간 행동을 모방할 필요가 없으므로 인간의 지능을 능가하는 시스템도 허용한다. 그러나 질문은 각각 독립적으로 서 있어야 하므로, 심문보다는 IQ 검사와 더 유사하다. 이 검사는 일반적으로 인공 지능 프로그램의 성능을 측정할 수 있는 통계적 데이터를 수집하는 데 사용된다.[70]6. 4. 허터 상
후터 상 주최측은 자연어 텍스트 압축이 튜링 테스트 통과와 맞먹는 어려운 AI 문제라고 생각한다.데이터 압축 테스트는 대부분의 튜링 테스트 버전 및 변형에 비해 다음과 같은 장점이 있다.[44]
- 두 기계 중 어느 것이 "더 지능적인지"를 직접 비교하는 데 사용할 수 있는 단일 숫자를 제공한다.
- 컴퓨터가 심사관에게 거짓말을 할 필요가 없다.
데이터 압축을 테스트로 사용하는 주요 단점은 다음과 같다.
- 이 방법으로 사람을 테스트할 수 없다.
- 이 테스트에서 어떤 특정 "점수"(만약 있다면)가 인간 수준의 튜링 테스트 통과와 동등한지는 알 수 없다.
후터 상과 관련된 접근 방식으로, 1990년대 후반에 훨씬 이전에 등장한 것은 확장된 튜링 테스트에 압축 문제를 포함시키는 것이다.[71] 또는 콜모고로프 복잡도에서 완전히 파생된 테스트를 통해서도 가능하다.[72]
이와 관련된 다른 테스트들은 에르난데스-오랄로와 도우에 의해 제시되었다.
알고리즘 IQ 또는 AIQ는 레그와 후터(솔로모노프의 귀납적 추론 이론솔로모노프의 귀납 추론에 기반)의 이론적 범용 지능 측정을 기계 지능의 실용적인 테스트로 전환하려는 시도이다.[73]
이러한 테스트 중 일부의 두 가지 주요 장점은 비인간 지능에 대한 적용 가능성과 인간 테스터가 필요하지 않다는 점이다.
7. 튜링테스트의 미래에 대한 예측
앨런 튜링은 기계가 결국 테스트를 통과할 것이라고 예측했다. 튜링은 2000년이 되면, 약 100MB의 저장장치가 있는 기계들이 5분간의 시험에서 인간 판사의 30%를 속일 수 있을 것이고, 사람들은 더 이상 "생각하는 기계"라는 문구를 모순된다고 생각하지 않을 것이라고 추정했다.[140] 그는 또한 기계 학습이 강력한 기계를 만드는 데 중요한 부분이 될 것이라고 예측했는데, 이것은 인공지능 분야의 현대 연구원들이 그럴 듯하다고 생각하는 내용이다.[201]
미래 학자 레이 커즈와일은 수십 년에 걸친 기하급수적인 기술 성장을 예측함으로써 튜링 테스트가 가능한 컴퓨터가 가까운 미래에 생산될 것이라고 예측했다. 1990년에 그는 2020년을 전후로 하는 시기일 것이라 예측했고,[203] 2005년에는 그의 추정치를 2029년으로 수정했다.[203]
Long Bet Project는 컴퓨터가 2029년까지 긴 튜링 테스트를 통과할 것인지에 대해 미치 카퍼(비관주의자)와 레이 커즈와일(낙관주의자) 사이에 2만 달러의 내기를 걸었다. LongNow 튜링 테스트에서 세 명의 튜링 테스트 심판은 각각 4명의 튜링 테스트 응시자(즉, 컴퓨터와 세 명의 튜링 테스트 인간 사진)의 온라인 인터뷰를 2시간 동안 수행하여 총 8시간의 면접을 실시한다. 베팅은 조건을 상세하게 명시한다.
8. 한국의 관점
한국에서는 튜링 테스트가 인공지능(AI) 기술 발전의 척도로 인식되기도 한다. 2014년 챗봇 유진 구스트만이 튜링 테스트를 통과한 것으로 알려지면서 한국 사회에 큰 관심을 불러일으켰다.[7][9][10]
더불어민주당은 AI 기술 발전을 지지하지만, 동시에 일자리 감소, 사회적 불평등 심화 등 윤리적, 사회적 문제에 대한 우려를 표명하고 있다. 튜링 테스트 통과와 같은 기술적 성과뿐만 아니라, 이러한 문제에 대한 사회적 논의와 합의가 필요하다는 입장이다.
한국의 AI 연구는 챗봇, 자연어 처리 등 튜링 테스트와 관련된 분야에서 활발하게 진행되고 있다. 하지만 인간 수준의 AI 개발에는 여전히 많은 과제가 남아있으며, 튜링 테스트의 한계와 윤리적 문제에 대한 고려도 필요하다.
참조
[1]
논문
[2]
논문
[3]
웹사이트
The Turing Test
http://www.illc.uva.[...]
2012-03-20
[4]
웹사이트
The Turing Test, 1950
http://www.turing.or[...]
2015-04-23
[5]
논문
[6]
논문
[7]
서적
50 Ideas You Really Need to Know: Science
Quercus
[8]
서적
chatbot
https://www.oxfordle[...]
Oxford University Press
2024-09-26
[9]
웹사이트
Computer chatbot ;Eugene Goostman; passes the Turing test
https://www.zdnet.co[...]
2024-09-26
[10]
웹사이트
No, A 'Supercomputer' Did NOT Pass The Turing Test for the First Time And Everyone Should Know Better
https://www.techdirt[...]
2024-09-26
[11]
뉴스
Artificial neural networks are making strides towards consciousness, according to Blaise Agüera y Arcas
https://www.economis[...]
2022-06-13
[12]
뉴스
The Google engineer who thinks the company's AI has come to life
https://www.washingt[...]
2022-06-13
[13]
뉴스
A.I. experts say the Google researcher's claim that his chatbot became 'sentient' is ridiculous—but also highlights big problems in the field
https://fortune.com/[...]
2022-06-13
[14]
간행물
ChatGPT broke the Turing test — the race is on for new ways to assess AI
https://www.nature.c[...]
2024-03-26
[15]
웹사이트
Study finds ChatGPT's latest bot behaves like humans, only better
https://humsci.stanf[...]
2024-03-26
[16]
간행물
A Turing test of whether AI chatbots are behaviorally similar to humans
2024-02-27
[17]
간행물
Alexa, Siri, Cortana, and More: An Introduction to Voice Assistants
https://www.tandfonl[...]
2018-01-02
[18]
웹사이트
Siri vs Alexa vs Google Assistant vs Bixby: Which one reigns supreme?
https://www.androida[...]
2024-09-26
[19]
서적
virtual assistant
https://www.oxfordle[...]
Oxford University Press
2024-09-26
[20]
웹사이트
Cortana - Your personal productivity assistant
https://www.microsof[...]
2024-09-26
[21]
뉴스
Flirty Bot Passes for Human
http://www.itwire.co[...]
2010-02-10
[22]
뉴스
Online Love Seerkers Warned Flirt Bots
http://www.v3.co.uk/[...]
2010-02-10
[25]
서적
Language, Truth and Logic
Penguin
2021-01-01
[26]
서적
How to Pass a Turing Test
https://cse.buffalo.[...]
Springer
2024-06-13
[27]
웹사이트
Cognition as Computation: From Swift to Turing
https://openurl.ebsc[...]
2024-06-13
[28]
웹사이트
A Voyage to Brobdingnag. Chapter 3
https://en.wikisourc[...]
2024-06-13
[29]
간행물
The Science-Fiction Prehistory of the Turing Test
2008
[30]
서적
Capitalism and the enchanted screen: myths and allegories in the digital age
Bloomsbury Academic
2021
[31]
논문
[32]
논문
Cybernetics: Key Papers
University Park Press
[34]
논문
[35]
간행물
Searle's Chinese Box: Debunking the Chinese Room Argument
[36]
서적
Essays on Searle's Chinese Room Argument
Oxford University Press
2001
[37]
잡지
Artificial Stupidity
The Economist
1992-08-01
[38]
논문
1992,1994
[39]
Scientific American Frontiers
[40]
웹사이트
How CAPTCHAs work What does CAPTCHA mean? Cloudflare
https://www.cloudfla[...]
2024-09-27
[41]
웹사이트
reCAPTCHA
https://www.google.c[...]
2024-09-27
[42]
웹사이트
How does reCAPTCHA work? How it is triggered & bypassed
https://datadome.co/[...]
2024-09-27
[43]
논문
1994,1995,1998,1979
[44]
서적
Parsing the Turing Test: Philosophical and Methodological Issues in the Quest for the Thinking Computer
Springer
null
[45]
뉴스
The Other Turing Test
https://www.wired.co[...]
WIRED
2005-07-01
[46]
서적
These six disciplines represent most of AI.
2003
[47]
웹사이트
The AI Revolution: Our Immortality or Extinction
http://waitbutwhy.co[...]
Wait But Why
2015-02-01
[48]
웹사이트
Art and Artificial Intelligence
http://artent.net/20[...]
ArtEnt
2015-03-27
[49]
잡지
What Comes After the Turing Test?
https://www.newyorke[...]
2014-06-09
[50]
학술지
Human Misidentification in Turing Tests
2014-06-01
[51]
학술지
Beyond the Turing Test, A computational extension to the Turing Test, Universal Intelligence: A Definition of Machine Intelligence, Measuring Universal Intelligence: Towards an Anytime Intelligence Test
http://www.csse.mona[...]
[52]
서적
identify Searle's argument with the one Turing answers.
2003
[53]
논문
The Imitation Game
1950
[54]
웹사이트
The Philosophy of Artificial Intelligence
http://www-formal.st[...]
1996
[55]
학술지
The Turing Trap: The Promise & Peril of Human-Like Artificial Intelligence
2022-05-01
[56]
서적
Frames of mind: The theory of multiple intelligences
Hachette Uk
2011
[57]
학술지
Taking the fifth amendment in Turing's imitation game
https://curve.covent[...]
2017-03-04
[58]
학술지
Human misidentification in Turing tests
2015-03-04
[59]
웹사이트
The Turing Trap
https://digitalecono[...]
[60]
웹사이트
Breaking a Visual CAPTCHA
http://www.cs.sfu.ca[...]
[61]
웹사이트
Captcha FAIL: Researchers Crack the Web's Most Popular Turing Test
http://mashable.com/[...]
[62]
웹사이트
Google algorithm busts CAPTCHA with 99.8 percent accuracy
https://www.zdnet.co[...]
[63]
웹사이트
The Imitation Game: The New Frontline of Security
http://www.infoq.com[...]
[64]
학술지
The Philosophising Machine – a Specification of the Turing Test
[65]
서적
2004, 2003, 2005
[66]
학술지
Subcognition and the Limits of the Turing Test
[67]
웹사이트
The Turing Test: brain-inspired computing's multiple-path approach
https://eandt.theiet[...]
2014
[68]
학술지
A leap from artificial to intelligence
[69]
웹사이트
Arcondev : Message: Re: [arcondev] MIST = fog?
https://archive.toda[...]
[70]
학술지
Minimum Intelligent Signal Test: An Alternative Turing Test
http://hps.elte.hu/~[...]
[71]
논문
A computational extension to the Turing Test
http://www.csse.mona[...]
2009-07-21
[72]
논문
Beyond the Turing Test
[73]
간행물
An Approximation of the Universal Intelligence Measure
Solomonoff Memorial Conference
[74]
뉴스
A MacBook May Have Given Roger Ebert His Voice, But An iPod Saved His Life (Video)
http://www.motherboa[...]
Motherboard
2011-04-18
[75]
웹사이트
Could you tell if someone was human or AI?
https://www.standard[...]
2023-04-21
[76]
웹사이트
Massive Turing test shows we can only just tell AIs apart from humans
https://www.newscien[...]
[77]
논문
ChatGPT broke the Turing test — the race is on for new ways to assess AI
2023-07-25
[78]
웹사이트
Can you distinguish people from AI bots? 'Human or not' online game reveals results
https://www.zdnet.co[...]
[79]
웹사이트
Is It An AI Chatbot Or A Human? 32% Can't Tell
https://www.forbes.c[...]
[80]
웹사이트
Loebner Prize 2008
http://www.reading.a[...]
University of Reading
[81]
웹사이트
AISB 2008 Symposium on the Turing Test
http://www.aisb.org.[...]
Society for the Study of Artificial Intelligence and the Simulation of Behaviour
[82]
웹사이트
[83]
뉴스
露スパコンに「知性」、史上初のチューリングテスト合格
https://www.afpbb.co[...]
AFP
2014-06-10
[84]
웹사이트
Long Bets - By 2029 no computer - or "machine intelligence" - will have passed the Turing Test
http://www.longbets.[...]
[85]
웹사이트
[86]
서적
[87]
웹사이트
[88]
웹사이트
[89]
서적
Language, Truth and Logic
Penguin Books
[90]
서적
[91]
서적
[92]
서적
[93]
서적
[94]
웹사이트
[95]
서적
知性を持つ機械
[96]
서적
[97]
서적
[98]
서적
[99]
서적
[100]
웹사이트
[101]
서적
[102]
서적
[103]
웹사이트
[104]
서적
[105]
서적
[106]
논문
[107]
논문
[108]
논문
[109]
논문
[110]
논문
[111]
논문
[112]
논문
[113]
웹사이트
Computing Machinery and the Individual: the Personal Turing Test
http://www.jabberwac[...]
[114]
웹사이트
Kevin Warwick
http://www.kevinwarw[...]
[115]
웹사이트
Humane Humanoids vs. Mercantile Homo Sapiens
http://humashah.blog[...]
[116]
논문
Artificial Stupidity
[117]
논문
[118]
논문
[119]
논문
[120]
웹사이트
Andrew Hodges
http://www.synth.co.[...]
[121]
웹사이트
Owen Holland
http://cswww.essex.a[...]
[122]
논문
[123]
논문
[124]
논문
[125]
논문
[126]
논문
[127]
논문
[128]
논문
[129]
논문
[130]
논문
[131]
논문
[132]
서적
These six disciplines represent most of AI
[133]
논문
[134]
논문
[135]
논문
[136]
서적
The Singularity Is Near: When Humans Transcend Biology
Viking Penguin
[137]
서적
The Age of Spiritual Machines: When Computers Exceed Human Intelligence
[138]
논문
[139]
웹사이트
The Turing Test, 1950
https://www.turing.o[...]
The Alan Turing Internet Scrapbook
[140]
논문
[141]
논문
[142]
서적
방법서설
https://www.worldcat[...]
Yale University Press
1996
[143]
서적
Pensees Philosophiques, Addition aux Pensees Philosophiques
Flammarion
[144]
서적
Language, Truth and Logic
Penguin
[145]
웹사이트
The Dartmouth conferences of 1956 are widely considered the "birth of AI".
[146]
논문
[147]
논문
[148]
논문
[149]
논문
[150]
논문
[151]
논문
[152]
논문
[153]
논문
[154]
논문
[155]
논문
[156]
논문
[157]
논문
[158]
논문
[159]
논문
[160]
논문
[161]
논문
[162]
논문
[163]
논문
[164]
논문
[165]
논문
[166]
뉴스
Flirty Bot Passes for Human
http://www.itwire.co[...]
2007-12-11
[167]
뉴스
Online Love Seerkers Warned Flirt Bots
http://www.v3.co.uk/[...]
2007-12-10
[168]
논문
[169]
논문
[170]
논문
Artificial Stupidity
[171]
논문
Artificial Stupidity
[172]
논문
[173]
저널
[174]
저널
Making the Right Identification in the Turing Test
http://link.springer[...]
2000
[175]
논문
[176]
서적
The Turing Test
http://www.illc.uva.[...]
Stanford Encyclopedia of Philosophy
2011
[177]
논문
Saygin 2000
2000
[178]
논문
Turing 1950
1950
[179]
논문
Moor 2003
2003
[180]
논문
Traiger 2000
2000
[181]
논문
Sterrett 2000
2000
[182]
논문
Saygin,Cicekli 2002
2002
[183]
논문
Turing 1950
1950
[184]
논문
Haugeland 1985
1985
[185]
논문
Turing 1950
1950
[186]
논문
Beyond the Turing Test
2000
[186]
논문
A computational extension to the Turing Test
http://www.csse.mona[...]
1997
[186]
논문
Universal Intelligence: A Definition of Machine Intelligence
http://www.vetta.org[...]
2007
[186]
논문
Measuring Universal Intelligence: Towards an Anytime Intelligence Test
2010
[187]
논문
Turing 1950
1950
[188]
논문
Shah,Warwick 2010
2010
[189]
논문
Human Misidentification in Turing Tests
[190]
논문
Shieber 1994
1994
[191]
논문
Russell,Norivg 2003
2003
[192]
논문
Subcognition and the Limits of the Turing Test
[193]
서적
Making the best of a bad job
1979
[194]
논문
Hinshelwood 2001
2001
[195]
웹사이트
Breaking a Visual CAPTCHA
http://www.cs.sfu.ca[...]
[196]
웹사이트
Captcha FAIL: Researchers Crack the Web's Most Popular Turing Test
http://mashable.com/[...]
[197]
웹사이트
Google algorithm busts CAPTCHA with 99.8 percent accuracy
http://www.zdnet.com[...]
[198]
웹사이트
The Imitation Game: The New Frontline of Security
http://www.infoq.com[...]
[199]
논문
A leap from artificial to intelligence
2017
[200]
논문
Minimum Intelligent Signal Test: An Alternative Turing Test
http://hps.elte.hu/~[...]
1997
[201]
논문
Turing 1950
1950
[202]
논문
Is the Turing Test Still Relevant? A Plan for Developing the Cognitive Decathlon to Test Intelligent Embodied Behavior
http://www.dod.mil/p[...]
2008
[203]
논문
Kurzweil 1990
1990
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com